S3 存储插件
启用的版本是 1.3.0,Drill 有能力去查询存储在 Amazon 的 S3 云端上的文件,配置其存储插件,并使用 S3 的依赖库。这是很重要的,因为 S3 增加了支持 5G 的文件。
- 提供你的 AWS 证书。
- 配置 S3 存储插件到 S3 bucket。
启用 Drill 的 S3 支持,在你的 Drill 安装目录中,编辑 文件,替换 ENTER_YOUR_ACESSKEY 和 ENTER_YOUR_SECRETKEY 为你的 AWS 证书。
配置 S3 存储插件
- 复制 “dfs” 插件。点击 “dfs” 插件的 “Update” 按钮,复制出现的 JSON 文本。
- 创建一个新的存储插件,并粘贴刚刚复制的 “dfs” 文本。
- 替换 “file:///” 为你的 “s3a://your.bucketname”。
你现在应该能够通过 S3a 库,使用存储在 S3 上的数据了。
幸运的是,在 Hadoop 2.7.1 中实现了 S3a 的该部分功能,HttpClient 的请求的限制参数的提取,通过配置能够避免 ConnectionPoolTimeoutException。下面是如何去设置相关参数到 conf/core-site.xml 文件中: